https://docs.python.org/3/library/urllib.htmlurllib 是一个python内置的HTTP请求库,包括:
- urllib.request用于打开和读取URL
- urllib.error包含由- urllib.request抛出的异常
- urllib.parse用于解析URL
- urllib.robotparser用于解析- robots.txt文件
快速获取一个静态页面的HTML文档
| 1 | import urllib.request | 
设置超时
| 1 | import urllib.request | 
简单使用request
| 1 | import urllib.request | 
添加请求头部信息
| 1 | import urllib.request | 
GET数据
字符串拼接时无需转码
| 1 | import urllib.request | 
POST数据
post数据必须转换成字节编码
| 1 | import urllib.parse | 
捕获HTTP错误
| 1 | import urllib.request | 
使用代理服务器
| 1 | import urllib.request | 
使用cookie
爬取的网页涉及登录信息。访问每一个互联网页面,都是通过HTTP协议进行的,而HTTP协议是一个无状态协议,所谓的无状态协议即无法维持会话之间的状态。
| 1 | # 待修改 |